﻿ Povestea unui domeniu de cercetare O retrospectivă romanțată Dan Cristea Motto Despre esența gândirii știm acum un pic mai mult decât știu peștii despre ce înseamnă înotul… John Mc Carthy FII la 25 de ani, Iași, 19 mai 2017 Începuturi șovăitoare Prima amintire v O după-amiază tărzie, la mine acasă, cândva spre sfârșitul deceniului ‘970 v Protagoniști: eu și Nicu Curteanu v Nicu îmi zice de un cerc în care vin lingviști și informaticieni… v și de frumusețea unui domeniu FII la 25 de ani, Iași, 19 mai 2017 Ce făceam eu? FII la 25 de ani, Iași, 19 mai 2017 Un cerc interdisciplinar v Participanți: v lingviști cu precădere: prof Cornel Dimitriu – gramarian, prof Vasile Arvinte – lingvist, prof Dumitru Irimia – eminescolog, cercetătorii Ion Florea și Ioan Oprea de la Inst Al Philippide – lexicografi, familia Popârda de la Litere – teoreticieni ai limbajului v un logician: prof Petru Ioan v câțiva informaticieni: Neculai Curteanu, George Ceaușu, Paulina Mihăescu v și ingineri: Virgil Călmățuianu, Traian Ocneanu FII la 25 de ani, Iași, 19 mai 2017 Câțiva membri ai cercului Ce se discuta la cerc? v teorii lingvistice, v formalisme de reprezentare a limbajului natural, v motivații pentru tratamente informatice aplicate gramaticilor limbajului natural v posibilități de creare de resurse lingvistice cu mijloace informatice v gramatici generativ-transformaționale (Chomsky) FII la 25 de ani, Iași, 19 mai 2017 Cum te documentai? Dear Professor… I recently read about your paper Dan Crista and I would be very gratfl t you Computr Centr of te if you would agree t send me a Alexandru Ioan Cuza Universit of Iași copy of it 16, Bertelot St Sincerit yours, Dan Crista Iași, Romania FII la 25 de ani, Iași, 19 mai 2017 Cărțile se copiau la xerox… FII la 25 de ani, Iași, 19 mai 2017 Cărțile se copiau la xerox… ALL FII la 25 de ani, Iași, 19 mai 2017 - Chomsky nu a scris în viața lui nicio teoremă… - Ah, nu se poate!! O nebunie a formalisme gramaticale după el v gramatici de constituenți conduse de regent (HPSG) v cazuale v categoriale v funcționale v de dependență, etc Reprezentă ri semantice și logice ale enunțurilor v Montague grammars v semantic structures (Jackendoff) v semantic constraints (Fillmore), etc FII la 25 de ani, Iași, 19 mai 2017 Ce are limbajul așa de special? v Neîncredere printre colegii mai în vârstă… => nu poate fi formalizat! v “Cuvintele sunt un fel de atomi între care se exercită forțe de atracție și de respingere: ele se pot aranja în propoziții dacă aceste forțe de atracție și respingere ajung la un fel de echilibru…” comunicare cu P M i hăescu la un simpozion în A R v Coperta cărții lui Edward Barton, Robert C Berwick and Eric Sven Ristad: Computational complexity and Natural Language FII la 25 de ani, Iași, 19 mai 2017 Primul proiect v Valoare: 10 000 lei!! v Durata: 1 an v Finanțator: ICI București v Coautori: Paula Mihăescu, Adina Curteanu, Virgil Călmățuianu, Petru Ioan v O gramatică a grupului verbal v Prima implementare a unui analizor-generator morfologic pentru limba română (Lisp) v Un model de generare de fraze în limbaj natural bazat pe gramatici cu atribute FII la 25 de ani, Iași, 19 mai 2017 Anii 1984-1989 v Sisteme de întrebare-răspuns v IURES (I Understand and Reply Eliminating Syntax/Înțeleg Ușor Românește Eliminând Sintaxa) – domeniul discursului e organizat ca o rețea semantică, întrebarea se decodifică într-o navigare în rețea (cu Dan Tufiș) => implementare la ICI București v QUERNAL (QUERy by NAtural Language) – întrebarea era transformată într-un program care interoga o bază de date => implementări la Institutul de Cercetări Metalurgice București, Flamura Roșie Sibiu, Institutul de Cercetări Hidrologice Iași (cu G Ciobanu), Trustul de Petrol Moinești (cu D Lucanu) FII la 25 de ani, Iași, 19 mai 2017 Interpretarea limbajului se bazează pe context Doctorat v 1989, eu către Profesor: “Aș vrea să fac un doctorat despre ambiguitatea limbajului natural și modul în care contextul poate ajuta la dezambiguizarea lui…” v cu 2 ani înainte: Contextual Systems And Contextual Transducers – cu Dorel Lucanu v până la urmă: un limbaj de definire a contrângerilor în vecinătăți care pot constitui contexte Limbajul permite: - declararea de vecinătăți - descoperirea de șiruri de obiecte “vecine” - pe șiruri se pot opera modificări (ca în programarea bazată pe reguli) - constrângeri se pot defini în mai multe lumi obiectuale simultan FII la 25 de ani, Iași, 19 mai 2017 Teoria nervurilor v 1998: împreună cu Nancy Ide și Robert Romary v apoi: cu Valentin Tablan și Daniel Marcu v ulterior cu studenți doctoranzi ⇒ o structură ascunsă a discursului ⇒ împrumută din Rhetorical Structure Theory numai nucrearitatea, lăsând la o parte numele relațiilor ⇒ unitățile de discurs plasate pe aceste nervuri au coeziune și coerență în succesiunea lor ⇒ dintr-un fir primordial al istoriei se desprind alte subistorii, care apoi se pot ramifica la rândul lor => un discurs seamănă cu nervurile unei frunze FII la 25 de ani, Iași, 19 mai 2017 Vecinătatea, pentru înțelegerea unei ued, este nervura referințe evocative referințe post-evocative FII la 25 de ani, Iași, 19 mai 2017 Potențial vs efort 95 00% 8000 7000 90 00% 6000 5000 85 00% 4000 80 00% Effort 3000 2000 75 00% 1000 0 70 00% 1 2 3 4 5 6 7 8 9 10 1112 13 14 15 16 17 18 19 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 0 1 2 3 4 5 6 7 8 E-DEA size9 E-DEA size VT-k Linear-k VT FII la 25 de ani, Iași, 19 mai 2017 Mecanisme simbolice: GGS • Radu Simionescu: – Graphical Grammar Studio: un mecanism de analiză grafic și interactiv, care a plecat de la NOOJ (expresii regulate) a ajuns la complexitatea mașinilor Turing – aplicații: • îmbunătățirea POS-taggerelor prin reguli de corectare a erorilor frecvente • recunoașterea numelor de entități (MappingBooks) • limbaj de interogare pentru COROLA (constrângeri) FII la 25 de ani, Iași, 19 mai 2017 GGS: nume de entități FII la 25 de ani, Iași, 19 mai 2017 În lexicologie: Key Word In Context (KWIC) FII la 25 de ani, Iași, 19 mai 2017 Resursele lingvistice – ucenicia Resursele lingvistice: apa care hrănește lingvistica computațională FII la 25 de ani, Iași, 19 mai 2017 De ce sunt ele dorite v Fără ele: v cercetarea în LC este artificială, nu poate fi ancorată în realitate v modelele teoretice nu pot fi probate v seturile de date experimentale ar trebui fabricate artificial FII la 25 de ani, Iași, 19 mai 2017 De ce sunt ele urâte? v Sunt costisitoare: necesită mult timp și o expertiză de specialitate pentru dezvoltarea lor v Crearea de resurse nu constituie subiecte preferate pentru marile conferințe sau jurnale v comunicate în workshopuri sau conferințe locale, nu aduc grozăvii de puncte v Nu sunt acceptate ușor la finanțare: ar putea constitui obiectul unor proiecte, mai degrabă naționale decât europene v în momentul de față, CE nu mai finanțează crearea de resurse FII la 25 de ani, Iași, 19 mai 2017 Proiectele TELRI (Trans-European Language Resources Infrastructure) v 1997-2001: v to collect, promote, and make available monolingual and multilingual language resources and tools for the extraction of language data and linguistic knowledge; v to offer a customized comprehensive service to academic and industrial users; v to prepare and organize research and development projects focusing on translation aids, multilingual authoring systems, information retrieval, etc Coordonator: Universitatea Mannheim FII la 25 de ani, Iași, 19 mai 2017 Resurse pe care toată lumea le vrea: WordNet, VerbNet, FrameNet, TreeBank WordNet-ul limbii române v WordNet - creația lui George Miller, Univ Philadelphia v clasifică cele 4 categorii prolifice de cuvinte (substantive, verbe, adjective, adverbe), în familii de sinonimii v synset-urile sunt apoi plasate în relații semantice v Realizat (și aliniat cu cele pt EN, CZ, BG, GR, SR, TR) în proiectul Balkanet FII la 25 de ani, Iași, 19 mai 2017 VerbNet românesc v Beth Levin: cadre verbale sintactico-semantice v abordată de noi, prin eforturile Gabrielei Haja (Instit Philippide) și apoi Alex Moruz v ca activitate cu studenții, în Scoala de Vară EUROLAN 2013 v de continuat! FII la 25 de ani, Iași, 19 mai 2017 FrameNet v Chuck Fillmore: corpus de roluri verbale v teza de doctorat a Dianei Trandabăț v traducerea românească a corpusului englezesc, adnotat la roluri verbale v => de continuat cu antrenarea de programe care să recunoască rolurile verbale FII la 25 de ani, Iași, 19 mai 2017 TreeBank v Colecția de arbori sintactici: Augusto Perez, Cătălina Mărănduc v acum și notații conforme cu Universal Dependency v Pe baza ei s-a făcut antrenarea parserului: Mihaela Colhon (Univ Craiova), Radu Simionescu Parsare sintactică (arbori de dependență) din http://nlptools info uaic ro/WebFdgRo/ FII la 25 de ani, Iași, 19 mai 2017 Cercetarea în LC din FII: o rețetă Ingrediente v seria de școli de vară EUROLAN, inițiată în 1993, cu o periodicitate de 2 ani, v seria de workshopuri (tranformate apoi în conferințe internaționale) ConsILR, inițiată în 2001, v înființarea Masteratului de LC, în 2001, v intrarea în proiectul Balkanet, în 2001, urmat apoi de alte finanțări naționale și europene, v doctorate în lingvistica computațională, după 2005 FII la 25 de ani, Iași, 19 mai 2017 EUROLAN v Inițiată în 1993 Inițiată în 1993 În colaborare cu Academia Română FII la 25 de ani, Iași, 19 mai 2017 Seria anuală de conferințe “Resurse lingvistice și instrumente pentru prelucrarea limbii române” din 2001 În colaborare cu Academia Română 12 ediții ConsILR v Efecte: v a contribuit la formarea unei mase de cercetători români în LC și PLN v a deschis apetitul tinerilor spre acest domeniu v deși fără cotări (încă): a devenit manifestarea de referință în care se comunică despre realizări în care limba română e tratată prin mijloace informatice v manifestări similare: în Italia, Franța, Germania, Olanda etc FII la 25 de ani, Iași, 19 mai 2017 Masteratul în LC v Acceptăm atât studenți absolvenți de Informatică cât și din zona umanioarelor v La început am “importat” profesori: v din București: Dan Tufiș, Alexandra Cornilescu, mai târziu Alin Ceaușu v din Iași: Horia Teodorescu (și în prezent), Eugen Munteanu, Ana- Maria Minuț, Lăcrămioara Cărăușu v Am încercat să dăm un minim nivel informatic umaniștilor și un minim nivel lingvistic informaticienilor v => pericol: o struțo-cămilă care nu era bună să facă nici de unele, nici de altele? FII la 25 de ani, Iași, 19 mai 2017 Absolvent la MLC-FII sau cu o licență în NLP la FII v Cu un doctorat terminat ori în derulare în străinătate: v Daniela Solomon – doctorat în Informatică la Univ Lille; v Maria Georgescul – doctorat în PLN la Lausanne; v Valentin Tablan – doctorat în PLN la Univ Sheffield; v Bogdan Săcăleanu – doctorat în PLN la Univ Saarbruecken; v Oana Postolache (Nicolov) – doctorat la Saarbruecken și ISI – University of South California; v Laurian Gridinoc – doctorand la Knowledge Media Institute de pe lângă Open University; v Claudiu Mihăilă – doctorat în Anglia; v Cătălina Barbu (Hallett) – doctorat în PLN la Univ Wolverhampton, actualmente la Univ Brighton; v Cristina Butnariu – doctorandă în PLN la Univ Dublin; v Amalia Todirașcu – doctorat în PLN la Marc Bloch, Strasbourg, conferențiar la Univ Strassburg; v Gabriela Pavăl – doctorat în PLN la Knowledge Media Institute de pe lângă Open University, London; v Corina Vrânceanu (Dima) – doctorat în PLN în derulare la Univ Tubingen; v Hortensia Popescu – doctorat la Univ Hamburg; v Adrian Bejan – doctorat în PLN la Univ Dallas, North Texas, acum la univ Washington, Seattle; v Iustin Dornescu – doctorat în PLN la Univ Wolverhampton; v Mihai Lupu – doctorat în PLN la NUS Singapore, actualmente la TUW Viena; v Georgiana Pușcașu (Marcic) – doctorat în PLN la Univ Alicante și Wolverhampton; v Alexandra Balahur – doctorat în PLN la Univ Alicante, actualmente cercetătoare postdoctorală la Joint Research Centre, European Commision, Ispra, Italia v Cristian Gațu – doctorat la Universite de Neuchâtel, actualmente lector la UAIC-FII; v Neculai Archip – doctorat la Universite de Neuchâtel, MBA la Cornell University – S C Johnson Graduate School of Management, postdoctoral fellow la University of British Columbia, asistent professor of radiology la Brigham and Women's Hospital, Boston, actualmente la Siemens Healthcare FII la 25 de ani, Iași, 19 mai 2017 Colaboratori ai cercului de NLP-FII v Cu doctorate făcute în alte părți: v v Dan Ștefănescu – doctorat în Calculatoare (PLN) la ICIA-Academia Română, București; v Alin Ceaușu – doctorat în Calculatoare (PLN) la ICIA-Academia Română, București; v Marius-Radu Clim – doctorat în filologie, cercetător la Institutul „Alexandru Phillippide” – ARFI; v Gabriela Haja – doctor în filologie, CP1 la Institutul „Alexandru Phillippide” – ARFI; v Isabelle Tamba – doctor în filologie, CP1 la Institutul „Alexandru Phillippide” – ARFI; v Anca Bibiri – doctorat în Litere, cercetător la Departamentul de Cercetări Interdisciplinare al UAIC; v Daniela Dumbravă – doctorat în Istorie la Univ Florența, post-doc la UAIC-FII FII la 25 de ani, Iași, 19 mai 2017 Teze de doctorat în LC în FII v Adrian Iene (2009): Textual entailment with applicaons to Queson Answering; v Maria Husarciuc (în cotutelă, 2009): Unităţi frazeologice Abordare contrasvă franco- română Aplicaţie pe corpus paralel; v Diana Trandabăț (2010): Natural Language Processing Using Semanc Frames; v Corina Forăscu (2011): Contribuții la prelucrarea limbii române folosind metode de analiză a discursului; v Ionuț Pistol (2011): Automated Processing of Natural Language; v Alex Moruz (2011): Predicaon Driven Textual Entailment; v Mihaela Mocanu (în cotutelă, 2011): Analiza semiocă a limbajului polic eminescian; v Augusto-Cenel Perez (în cotutelă, 2014): Corpusul treebank românesc; v Radu Simionescu (2016): Stascal and Inference Based Approaches in Natural Language Processing – Applicaons to Morphology and Syntax; v Daniela Gîfu (2016): Lexical Semancs In Text Processing Contrasve Diachronic Studies on Romanian Language; v Paul Diac (în derulare): Linguisc Annotaon Schemas Supporng the Management of Workﬂows; v Cătălina Mărănduc (în derulare): Linguisc Resources and Tools for Diachronic Romanian; v Andrei Scutelnicu (în derulare): Interconnected Linguisc Resources; v Ufuoma Apoki (în derulare): Soware Agents în MOOC systems; v Alexandra Lazăr (în cotutelă, în derulare): Probleme de sl în traducerea automată Un studiu român-francez cu posibilități de generalizare Proiecte: Excogito, ergo sum! v Adică inventez, imaginez, descopăr, deci exist! => v finanțare suplimentară a doctoranzilor: stau în laborator “zi lumină” (adică minimum 8 ore pe zi) v ești la curent cu ce se întâmplă în lume în domeniul tău v circuli, te duci în conferințe “pe banii tăi” v cunoști oameni de valoare și ei te cunosc pe tine v publici! FII la 25 de ani, Iași, 19 mai 2017 Doctoranzii: lava din subsolul Terrei v Atât timp cât lava clocotește în măruntaiele ei, planeta e vie! v doctoranzii (ori școlile doctorale) sunt cei (cele) care alimentează un domeniu cu idei, v pe ei se bazează profesorii (care programează mai puțin sau deloc) pentru a transforma un model într-un sistem funcționabil, o teorie – într-o certitudine, v ceea ce ar trebui să se întâmple și la noi: o idee – într-o companie! FII la 25 de ani, Iași, 19 mai 2017 Seria de workshopuri BringITon! FII la 25 de ani, Iași, 19 mai 2017 Colaborări: eDTLR, COROLA, DruKoLA Cei mai apropiați colaboratori v Institutul de Inteligență Artificială “Mihai Drăgănescu” al Academiei Române din București (AR-ICIA), condus de acad Dan Tufiș, v Institutul de Informatică Teoretică “Dan Gâlea” al Filialei Iași a Academiei Române (ARFI-IIT) – cu precădere colectivul de limbaj natural de acolo – director prof Horia- Neculai Teodorescu, v Institutul de Filologie Română “Alexandru Philippide”, de asemenea din cadrul ARFI, actualmente condus de Bogdan Crețu (director) și Gabriela Haja (director științific) FII la 25 de ani, Iași, 19 mai 2017 Semnificația lui “a colabora” v a fi prieten, v a găsi sprijin și idei, v a discuta știință, v a organiza împreună evenimente, v a participa în aceleași proiecte, v a scrie împreună lucrări, v a gândi în perspectivă domeniul FII la 25 de ani, Iași, 19 mai 2017 Marele Dicţionar tezaur al Limbii Române – început în 1906 FII la 25 de ani, Iași, 19 mai 2017 O metodologie de informatizare a DLR pagina de dicţionar scanare format fotografie digitală OCR-izare format HTML FII la 25 de ani, Iași, 19 mai 2017 O metodologie de informatizare a DLR format HTML corectare HTML îmbunătățit parsare baza de date eDTLR FII la 25 de ani, Iași, 19 mai 2017 eDTLR: achiziţionarea şi indexarea surselor v Scanare, OCR-izare şi aliniere imagine-text OCR txt scanare img text cu erori aliniere txt img FII la 25 de ani, Iași, 19 mai 2017 eDTLR: calea către contextul citatului Utilizatorul indică txt img un citat într-o pagină on-line a eDTLR comparare (pattern matching) şi primeşte un decupaj conţinând citatul şi un context al lui în imaginea sursei originare FII la 25 de ani, Iași, 19 mai 2017 COROLA Corpus of Contemporary Romanian Language (2014-2017) v 500 milioane de cuvinte, 300 ore de înregistrări vocale v Ținta: corpus de referință => toate domeniile și registrele literare v Contemporan: de la 1945 v Fără: scanări, OCR-izări v IPR-clean: protocoale semnate cu furnizorii v Curățat (semiautomat), metadate (semiautomat) și adnotări (automat) v Deschis accesului liber FII la 25 de ani, Iași, 19 mai 2017 DRuKoLA Sprachvergleich korpustechnologisch Deutsch-Rumänisch • Finanțare: Alexander von Humboldt – Foundation (1 01 2016 – December 2018) • Partneri: • Institutul Limbii Germane (Mannheim), Universitatea București • AR-ICIA – București • ARFI-IIT – Iași • Scop: • uniformizarea tehnologiei de reprezentare și acces la două corpusuri de mari dimensiuni: DeReKo (Deutsch Referenz Korpus) și CoRoLa, ca baze empirice pentru cercetări interlingvistice • pe termen lung: punct de plecare pentru o colecție de corpusuri de referință europene, în care fiecare corpus să fie administrat local și din care să se poată extrage dinamic diferite corpusuri comparabile FII la 25 de ani, Iași, 19 mai 2017 Speranțe de dăinuire v Cei mai importanți sunt oamenii: v cadre didactice și de cercetare în FII: Adrian Iftene, Corina Forăscu, Diana Trandabăț, Ionuț Pistol, Alex Moruz, Daniela Gîfu v un om care stă tot timpul în umbră: Lucian Gâdioi v și Școala: v Masteratul de Lingvistică Computațională Vă mulțumesc! 